檔案7：L11302 常見的機器學習模型（100題）

1. 出題頻率/重要性：★★★

由大綱出題：Yes（參考：初級大綱.txt - L11302 常見的機器學習模型）

「線性迴歸 (Linear Regression)」屬於何種機器學習模型範疇？

A. 分群 (Clustering)
B. 監督式學習，用於預測連續數值
C. 無監督式學習
D. 強化式學習

答案：B

解析：線性迴歸為典型的監督式迴歸模型，依據標籤(連續值)訓練。

2. 出題頻率/重要性：★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第12頁）

「羅吉斯迴歸 (Logistic Regression)」實際上最常用於？

A. 迴歸預測房價
B. 分群演算法
C. 二元分類，將輸出映射到0或1
D. 強化式策略學習

答案：C

解析：Logistic Regression雖名為迴歸，實際透過sigmoid函式做二元分類。

3. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

決策樹 (Decision Tree) 通常是透過什麼原則進行特徵選擇？

A. 最大化資訊增益或最小化不純度(如基尼係數)
B. 隨機指定
C. 根據特徵名排序
D. 完全不考慮分裂準則

答案：A

解析：常用的決策樹演算法(如ID3, C4.5, CART)皆透過量測分裂後資訊增益或基尼係數以決定最佳分裂特徵。

4. 出題頻率/重要性：★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第20頁）

「隨機森林 (Random Forest)」中的每棵樹，樣本和特徵的選擇方式是？

A. 有放回地隨機抽取部分資料 + 隨機抽取特徵子集，再訓練樹
B. 全部資料+全特徵
C. 依序修剪
D. 僅針對樹根做隨機

答案：A

解析：Random Forest使用Bagging概念對資料做bootstrap抽樣，且每分裂節點時隨機選部分特徵。

5. 出題頻率/重要性：★★★

由大綱出題：Yes（參考：初級大綱.txt - L11302 常見的機器學習模型）

支持向量機 (SVM) 的關鍵概念為？

A. 只適用回歸
B. 尋找能最大化類別間邊界距離的超平面，常用於分類
C. 不考慮間隔
D. 與核函式無關

答案：B

解析：SVM 透過最大化類別間的margin，提高泛化能力，核函式可處理非線性。

6. 出題頻率/重要性：★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第28頁）

「KNN (K-Nearest Neighbors)」的主要決策依據是什麼？

A. 計算測試樣本與訓練樣本之距離，取最接近的K個鄰居投票決策
B. 建立一棵決策樹
C. 加權線性方程
D. 使用隱含馬可夫模型

答案：A

解析：KNN 屬於懶惰學習算法，不需要明確的訓練階段，只在預測時找最近鄰居決定類別或數值。

7. 出題頻率/重要性：★★

由講義出題：No（外部延伸參考）

「Naive Bayes」在文字分類（如垃圾郵件分類）中常見原因是？

A. 訓練與預測速度快，對高維稀疏資料表現尚可
B. 無法處理文字
C. 須龐大計算量
D. 容易過度擬合

答案：A

解析：Naive Bayes 假設特徵條件獨立，對文本型高維特徵仍能有效學習，且計算簡單。

8. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第38頁）

「集成學習 (Ensemble)」如Bagging、Boosting的核心想法是？

A. 結合多個弱模型的預測，透過投票或加權讓最終結果更佳
B. 單模組必然勝過集成
C. 只適用線性回歸
D. 與多模型無關

答案：A

解析：Bagging(如隨機森林)並行投票；Boosting(如XGBoost)序列補誤差，共同提升效能。

9. 出題頻率/重要性：★

由大綱出題：Yes（初級大綱.txt - L11302 常見的機器學習模型）

線性模型常做特徵工程，原因是？

A. 無法加入新特徵
B. 線性模型本身只擬合線性關係，透過人工新增交叉或多項式特徵可處理複雜關係
C. 保持原樣最佳
D. 與模型無關

答案：B

解析：線性模型要學到彎曲或交互效應，需顯式加入非線性特徵(如x1*x2,x^2)。

10. 出題頻率/重要性：★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第52頁）

在樹模型中，若沒有任何限制，可能會如何？

A. 樹會持續深度生長，最終過擬合
B. 準確率一直提升，無上限
C. 無法生成樹
D. 僅能生成一層

答案：A

解析：決策樹若不做max_depth或最小樣本分裂等限制，易高度擬合訓練集雜訊。

11. 出題頻率/重要性：★★★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第80頁）

「深度學習 (Deep Learning)」中的神經網路與傳統ML模型相比，關鍵不同在於？

A. 多層神經網路可自行學習複雜特徵表示，尤其在影像、語音等領域有優勢
B. 深度學習不需要資料
C. 一定比傳統模型更快
D. 僅能做回歸

答案：A

解析：多層網路具自動特徵學習能力，且在大數據與GPU運算支持下大放異彩。

12. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

「神經網路 (Neural Network)」中，激活函式 (Activation) 的作用是？

A. 僅做線性輸出
B. 引入非線性，使網路能表達更複雜的函式關係
C. 加速資料讀取
D. 不在訓練流程中

答案：B

解析：若無激活函式，每層都是線性疊加，最終仍是線性模型，無法學習高階非線性。

13. 出題頻率/重要性：★★

由大綱出題：Yes（初級大綱.txt - L11302 常見的機器學習模型）

「深度前饋網路 (Feedforward NN)」與「捲積神經網路 (CNN)」差異為？

A. CNN在隱藏層中使用捲積與池化結構，擅長處理影像等具有空間資訊的資料
B. 完全無差別
C. 前饋網路只能處理序列資料
D. CNN無法用於影像

答案：A

解析：CNN特點是卷積層與池化層，可抽取空間結構特徵，常用於影像任務。

14. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第45頁）

隨機森林與梯度提升樹 (GBM) 的主要差異在？

A. RF採Bagging並行訓練多樹；GBM序列訓練，後續樹補前面殘差
B. RF只可處理回歸
C. GBM只可處理分類
D. 無本質差異

答案：A

解析：RF並行投票；GBM序列boost。兩者都是樹集成，但過程截然不同。

15. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

「Multinomial Naive Bayes」通常應用於？

A. 處理二分類連續特徵
B. 文字分類(如Bag of Words計數) 等多分類場景
C. 數值回歸
D. 與文本無關

答案：B

解析：多項式NB特別適合詞頻向量(計數型)的多分類任務，如文本分類。

16. 出題頻率/重要性：★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第60頁）

「Lasso (L1)」與「Ridge (L2)」回歸的相同點是？

A. 皆屬正則化方法，透過懲罰權重大小來抑制過擬合
B. L1是正則化，L2不是
C. Ridge會使權重=0
D. 兩者都只能做二元分類

答案：A

解析：L1與L2都在目標函式中加入權重懲罰項，只是形式不同(L1=|w|、L2=w^2)。

17. 出題頻率/重要性：★★★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第85頁）

「RNN (Recurrent Neural Network)」特別適合處理哪種資料型態？

A. 序列型(如時間序列、自然語言)資料
B. 靜態影像
C. 圖像分割
D. 純結構化表格

答案：A

解析：RNN使用隱狀態可記錄序列上下文資訊，常應用於語音、語言、時間序列預測等。

18. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

「強化學習 (Reinforcement Learning)」的學習方式與監督式學習不同點是？

A. RL有明確輸入輸出標籤
B. RL透過與環境互動並獲得獎勵或懲罰，累積試誤經驗
C. RL不能學習策略
D. 監督式無需標籤

答案：B

解析：強化式學習不預先提供每一步正確答案，而是透過獎懲在連續行動中學得最佳策略。

"

19. 出題頻率/重要性：★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第70頁）

「GBDT (Gradient Boosting Decision Tree)」與「XGBoost」之差異？

A. XGBoost是GBDT的工程升級版本，增加並行、正則化與缺失值處理等優化
B. 兩者毫無關係
C. XGBoost只能做回歸
D. GBDT較快於XGBoost

答案：A

解析：XGBoost 在GBDT基礎上做了許多工程改進(如並行、樹方法優化)，效能普遍較好。

20. 出題頻率/重要性：★★★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第88頁）

卷積神經網路 (CNN) 最早在哪種領域展現強大效果？

A. 圖像辨識，如ImageNet
B. 時序預測
C. 強化式學習遊戲
D. 客戶分群

答案：A

解析：CNN在影像分類中大幅超越傳統手工特徵方法，如LeNet, AlexNet的誕生即突破ImageNet。

21. 出題頻率/重要性：★

由大綱出題：Yes（初級大綱.txt - L11302 常見的機器學習模型）

K-Means屬於哪一類模型？

A. 非監督式分群
B. 監督式分類
C. 迴歸分析
D. 強化式學習

答案：A

解析：K-Means是將資料自動分成K群的演算法，並無標籤，屬非監督式分群。

22. 出題頻率/重要性：★★

由講義出題：No（外部延伸參考）

「DBSCAN」與「K-Means」在分群時有何差別？

A. DBSCAN不需預設群數，根據密度區域形成群，能發現任意形狀叢集
B. DBSCAN需要固定K
C. K-Means可找任意形狀
D. 兩者無任何差異

答案：A

解析：DBSCAN透過ε鄰域和MinPts定義密度，能自動發現叢集並標記雜點；K-Means要固定K且適用球形叢集。

23. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第92頁）

在隨機森林中，哪些方法可用來防止樹過度擬合？

A. 限制樹深 (max_depth)、設定最小樣本葉數 (min_samples_leaf) 等參數
B. 無法防止
C. 測試集調整
D. 只需移除隨機性

答案：A

解析：雖然RF本身已平均多樹降低過擬合，但仍可透過樹的max_depth等參數控制單棵樹複雜度。

24. 出題頻率/重要性：★

由大綱出題：Yes（初級大綱.txt - L11302 常見的機器學習模型）

假設你要做「文件分類」，初步會選哪種常見模型做 baseline？

A. Naive Bayes 或 Logistic Regression 搭配TF-IDF
B. K-Means
C. 隨機森林無法做分類
D. 僅能KNN

答案：A

解析：文本分類初級基線往往用朴素貝氏或Logistic Regression配合TF-IDF，速度快成效可觀。

25. 出題頻率/重要性：★★

由講義出題：No（外部延伸參考）

Gradient Boosting為何能不斷改善模型表現？

A. 每階段學習前一階段殘差，逐步修正誤差
B. 一次性平均多棵樹
C. 只隨機挑特徵
D. 不適用迭代

答案：A

解析：Boosting(尤其GBM)透過序列化加強，後面模型集中學習前面尚未解決的錯誤。

26. 出題頻率/重要性：★★★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第92頁）

使用「RNN (Recurrent Neural Network)」時，長序列會出現何種常見問題？

A. 梯度消失或爆炸，導致難以學習遠距資訊
B. 記憶所有序列
C. 只可做影像
D. 迴歸分析

答案：A

解析：RNN在長序列下梯度反傳時可能指數衰減(消失)或增長(爆炸)，故有LSTM/GRU改進。

27. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

KNN 做回歸時，預測值如何計算？

A. 無法做回歸
B. 找到K個最近鄰樣本的平均值或加權平均
C. 距離越遠權重越大
D. 僅能投票

答案：B

解析：KNN除用於分類，也可用於回歸，將K鄰點的標籤取平均(或加權平均)即為預測。

28. 出題頻率/重要性：★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第72頁）

「Perceptron」是什麼？

A. 最早期的線性分類器，單層感知器能處理可線性分的問題
B. CNN網路
C. 回歸演算法
D. 貝氏方法

答案：A

解析：感知器(Perceptron)是啟蒙時期的神經元模型，對線性可分問題可收斂，但無法處理非線性。

29. 出題頻率/重要性：★★★

由大綱出題：Yes（初級大綱.txt - L11302 常見的機器學習模型）

「GAN (Generative Adversarial Network)」屬於哪種類型的模型？

A. 鑑別式 (Discriminative) 模型
B. 生成式 (Generative) 模型，由生成器與鑑別器互相對抗
C. 僅能回歸
D. 不能生成資料

答案：B

解析：GAN 由生成器(產生假樣本)與判別器(判定真偽)對抗訓練，可生成接近真實的資料，如圖像。

30. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

在LSTM與GRU等改進型RNN中，為何能緩解梯度消失問題？

A. 透過門控機制 (Gate) 保留長期記憶並有選擇地忘記不必要資訊
B. 大幅增加參數
C. 與梯度消失無關
D. 全部改用線性激活

答案：A

解析：LSTM/GRU 引入輸入/遺忘/輸出門，保留長期依賴信息、減少梯度衰減。

31. 出題頻率/重要性：★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第82頁）

「凸優化 (Convex Optimization)」在某些模型中的重要性是？

A. 若損失函式是凸的，就能保證找到全域最小值，像線性/邏輯迴歸即是
B. 只表示梯度消失
C. 使模型不收斂
D. 與優化無關

答案：A

解析：凸函式只存在一個全域極小點，梯度下降能收斂到該點；例如線性回歸 MSE, logistic回歸 cross-entropy 都是凸問題。

32. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第98頁）

「LightGBM」相較於 XGBoost，哪項特色最為人熟知？

A. 採用葉節點增長(Leaf-wise)策略 + 直方圖優化，速度更快並能處理大規模資料
B. 僅能小資料
C. 與XGBoost無差別
D. 須固定特徵數不變

答案：A

解析：LightGBM用leaf-wise生長和直方圖加速技術，可降低計算量，對大數據更高效。

33. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

「貝葉斯最佳化 (Bayesian Optimization)」主要在解決什麼問題？

A. 高成本函式或黑箱函式的參數尋優，如模型超參數
B. K-Means初始中心選擇
C. 直接梯度下降
D. 與調參無關

答案：A

解析：貝葉斯最佳化不需要顯式梯度，可用於超參數搜尋，尤其評估昂貴時優於網格/隨機搜索。

34. 出題頻率/重要性：★★

由大綱出題：Yes（初級大綱.txt - L11302 常見的機器學習模型）

下列哪一個不是「集成學習」的方法？

A. PCA降維
B. Bagging (如隨機森林)
C. Boosting (如XGBoost)
D. Stacking (堆疊集成)

答案：A

解析：PCA是降維技術，不屬於集成學習。B、C、D皆為結合多模型提升表現的方法。

"

35. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第108頁）

在GBDT中，學習率 (learning rate) 與樹棵數 (n_estimators) 的取捨是？

A. 較低的學習率通常需要更多棵樹，較穩定但訓練時間較長
B. 學習率越大越好
C. 棵數越少效果越好
D. 與調參無關

答案：A

解析：學習率小 → 每次修正幅度小，需更多迭代；學習率大 → 易震盪或過擬合。需同時調整二者。

"

36. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

LGBM (LightGBM)與CatBoost都屬何種模型家族？

A. 深度神經網路
B. 梯度提升樹(Boosting) 的變體
C. CNN卷積模型
D. 純線性模型

答案：B

解析：LightGBM與CatBoost均是提升樹模型(Boosting)的實作，針對速度與類別特徵等做優化。

"

37. 出題頻率/重要性：★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第115頁）

SVM若要處理多類別問題，一般採哪種策略？

A. One-vs-One 或 One-vs-Rest 的二分類擴充
B. 直接端到端多分類
C. 只能做二分類
D. 與多分類無關

答案：A

解析：SVM本身為二分類器，多類別可透過OvO(每對類別一分類器) 或OvR 方式擴充。

"

38. 出題頻率/重要性：★★★

由大綱出題：Yes（初級大綱.txt - L11302 常見的機器學習模型）

「K-Means」演算法對初始中心的選擇敏感嗎？

A. 是，初始中心不同可能導致收斂到不同局部最小
B. K-Means不需初始中心
C. 一定可得到全域最佳
D. 與初始無關

答案：A

解析：K-Means對初始質心敏感，故常用K-Means++等方法改良初始點選擇。

"

39. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

若使用線性SVM時發現資料並非線性可分，可以怎麼辦？

A. 放棄
B. 引入核函式 (RBF、多項式等) 轉為非線性SVM
C. 只能做決策樹
D. 與可分無關

答案：B

解析：核SVM可映射到高維特徵空間來做線性可分，進而解決非線性問題。

40. 出題頻率/重要性：★★

由講義出題：No（外部延伸參考）

在CNN中，為何使用「池化層 (Pooling)」？

A. 降低空間維度，減少參數並增強平移不變性
B. 增加計算量
C. 提高解析度
D. 與CNN無關

答案：A

解析：Pooling(如 max/average pooling)能縮小特徵圖大小並保留關鍵訊號，提升模型穩健性。

41. 出題頻率/重要性：★★★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第95頁）

訓練神經網路時常使用「Dropout」層，其功用為？

A. 隨機丟棄部分神經元，避免過度擬合
B. 增加過擬合
C. 僅做資料標註
D. 刪除整個隱藏層

答案：A

解析：Dropout在訓練中隨機使一些神經元失活，減少互相依賴並提升泛化能力。

42. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

在SVM中使用 L1 損失或 L2 損失，有何差異？

A. L1損失對錯誤分類懲罰方式不同於L2，L2更平滑而L1更易稀疏
B. 與懲罰無關
C. 相同
D. SVM不含損失

答案：A

解析：SVM可定義不同形式的Hinge損失(L1 or L2)；L2 Hinge更平滑，L1對誤差線性懲罰。

43. 出題頻率/重要性：★★

由大綱出題：Yes（初級大綱.txt - L11302 常見的機器學習模型）

若要做「主成分分析 (PCA)」後再餵入分類模型，其目標是？

A. 用PCA當最終分類
B. 先降維移除雜訊與冗餘，再以較少特徵訓練分類器
C. 增加模型參數
D. 與分類無關

答案：B

解析：先降維能加速訓練並減少過擬合風險，保留主要變異資訊後再做分類。

44. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第140頁）

「梯度提升樹 (Gradient Boosted Tree)」若連續疊加太多樹且學習率過大，會怎樣？

A. 容易過擬合，需配合Early Stopping或適度正則化
B. 準確率一定最高
C. 只能用在小資料
D. 不受影響

答案：A

解析：Boosting在過多疊加+大學習率下易記住雜訊，故要監控驗證誤差或用正則化方式避免。

45. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

KNN 在高維度（如百維以上）為什麼常表現不佳？

A. 距離度量失去區分度，大部分點都相似距離
B. 高維度更好找鄰居
C. 無任何影響
D. KNN不需要距離

答案：A

解析：高維度下，樣本間距離差異變小，「維度詛咒」使KNN鄰居概念不再有效。

46. 出題頻率/重要性：★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第155頁）

CatBoost 相較於 XGBoost、LightGBM，有何特色？

A. 針對類別特徵 (Categorical Feature) 有更好的原生編碼方式，減少人工處理
B. 無法處理類別特徵
C. 只能做回歸
D. 僅在小資料能用

答案：A

解析：CatBoost有自動處理類別特徵(Ordered Target Statistics等)，對含類別欄位的資料成效好。

47. 出題頻率/重要性：★★★

由大綱出題：Yes（初級大綱.txt - L11302 常見的機器學習模型）

「AutoEncoder」屬於哪種模型類別？

A. 一種非監督式神經網路，用於壓縮與重建資料
B. 只能分類
C. 只能做迴歸
D. 貝氏方法

答案：A

解析：自編碼器(AutoEncoder)透過中間瓶頸層學到資料低維表示，再解碼重建輸入，用於降維或特徵學習。

48. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

在迴歸問題中，使用「Huber Loss」的好處是？

A. 結合MSE與MAE的特性，對outlier有更高的韌性
B. 無法處理outlier
C. 一定比MSE更差
D. 只適合樹模型

答案：A

解析：Huber在誤差小時類似MSE(平滑)，誤差大時類似MAE(對異常值敏感度低)。

49. 出題頻率/重要性：★★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第100頁）

「Transormer 變形模型」最大的創新之一是？

A. 透過注意力機制 (Self-Attention) 替代RNN/CNN處理序列，可大幅並行訓練
B. 只做圖像
C. 只能單向資訊
D. 放棄任何注意力

答案：A

解析：Transformer在自然語言等領域成功主要靠多頭注意力機制與並行結構，擺脫RNN序列依賴。

50. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第200頁）

綜觀「L11302 常見的機器學習模型」上半部分，下列哪句最能代表重點？

A. 不同模型各有特長，需根據資料性質與目標選擇
B. 只有隨機森林能應用
C. CNN可取代所有模型
D. 機器學習模型都必須是神經網路

答案：A

解析：各種模型（線性、樹、貝氏、SVM、神經網路等）都在不同情境有優勢，應依需求與資料特性選擇。

51. 出題頻率/重要性：★★

由講義出題：No（外部延伸參考）

使用隨機森林 (Random Forest) 時，若樣本數很多但特徵非常少，模型會怎樣？

A. 會失效，無法預測
B. 仍可投票，不過若特徵太少，也可能受限難以提升效果
C. 一定表現更好
D. 與特徵多少無關

答案：B

解析：RF需依賴特徵隨機抽樣來形成多樣性，若特徵少則樹之間差異化不明顯，效果有限。

52. 出題頻率/重要性：★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第210頁）

「One-Class SVM」可用於何種情形？

A. 偵測只有一類樣本的異常狀態，如異常偵測
B. 分類多類問題
C. 多元線性回歸
D. 僅做增強學習

答案：A

解析：One-Class SVM在只有正常樣本資料情況下學習該分佈，若有異常則判定為外部樣本。

53. 出題頻率/重要性：★★★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第110頁）

在RNN中為處理長期依賴而提出的「LSTM (Long Short-Term Memory)」其核心為？

A. 透過細胞狀態 (Cell State) 與門機制 (Gates) 來保留/忘記資訊，維持長期記憶
B. 只是一種線性變換
C. 與RNN相同
D. 只能短序列

答案：A

解析：LSTM用門機制控制資訊流動，減輕梯度消失問題，能捕捉較長距資訊。

54. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

「GRU (Gated Recurrent Unit)」與 LSTM 的差異在？

A. GRU更複雜多了輸入輸出門
B. LSTM只有一個門
C. GRU結構更精簡，只含Update/Reset門，沒有獨立Cell State
D. 二者毫無差異

答案：C

解析：GRU簡化了LSTM結構(合併Cell + hidden state)，只需兩個門，計算更快，但效果近似。

55. 出題頻率/重要性：★★

由大綱出題：Yes（初級大綱.txt - L11302 常見的機器學習模型）

若訓練一個多層感知器 (MLP) 來做分類，常用的輸出層激活函式是什麼？

A. ReLU
B. Tanh
C. Softmax，用來生成多類別機率分佈
D. Sigmoid

答案：C

解析：多類分類最後一層通常用Softmax將輸出映射到(0,1)且總和=1的機率向量。

56. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第220頁）

「多標籤分類 (Multi-label Classification)」與多類別 (Multi-class) 有何區別？

A. 多標籤：同一樣本可同時屬於多個標籤；多類別：每樣本僅屬其中一類
B. 兩者相同
C. 多標籤=多類別
D. 一定使用樹模型

答案：A

解析：多類別是單選一；多標籤則允許一個樣本同屬數個標籤(如同時包含音樂與體育)。

57. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

做KNN回歸時，若K太小，會？

A. 易過度貼合局部雜訊，導致過擬合
B. 更能泛化
C. 與K無關
D. 只影響分類

答案：A

解析：K值很小就只考慮很少的鄰居，容易受異常值影響；K太大則忽視細節。

58. 出題頻率/重要性：★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第230頁）

在影像辨識中，傳統方法與CNN最大的差異是？

A. 傳統需手工設計特徵(Canny、SIFT等)，CNN能自動學習卷積核抓取階層特徵
B. CNN也需人工定義特徵
C. 沒有差別
D. 傳統方法更適合大數據

答案：A

解析：CNN能以大量數據自動抽取影像特徵，取代人工設計邊緣/角點等特徵。

59. 出題頻率/重要性：★★★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第105頁）

在圖像分類裡常見的「VGGNet」「ResNet」「Inception」都是？

A. CNN網路架構，用於深度影像辨識
B. 強化學習模型
C. RNN變體
D. Bagging集成

答案：A

解析：VGG、ResNet、Inception都是不同時期的CNN結構，大幅提升ImageNet分類精度。

60. 出題頻率/重要性：★

由大綱出題：Yes（初級大綱.txt - L11302 常見的機器學習模型）

若要進行「序列文字生成」，下列哪種模型較常被使用？

A. RNN/LSTM/Transformer等序列模型
B. 決策樹
C. 卷積神經網路
D. SVM

答案：A

解析：文字生成需考慮上下文序列，RNN/LSTM/GRU可用於此，近年Transformer效果更好。

61. 出題頻率/重要性：★★

由講義出題：No（外部延伸參考）

「Softmax 回歸 (Softmax Regression)」與「Logistic Regression」關係？

A. Softmax是一種擴展版，用於多類別；Logistic是二元
B. 無關
C. Softmax只能用於回歸
D. Logistic可同時做多類別

答案：A

解析：Softmax回歸(多元邏輯迴歸)將二元logistic擴展到多類型。

62. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第240頁）

「層次式分群 (Hierarchical Clustering)」與 K-Means 最大差異？

A. 層次式分群不需先設定 K，可形成樹狀叢集結構；K-Means需指定 K
B. 層次式一定快於K-Means
C. K-Means不需K
D. 層次式只能2群

答案：A

解析：Hierarchical可由下而上(凝聚)或上而下(分割)形成樹狀叢集，不必預先給定群數。

"

63. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

「One-vs-One (OvO)」策略在多類分類中做法是什麼？

A. 對所有類別同時做單一分類器
B. 每兩類組合都訓練一個分類器，最終投票
C. 只對一類做預測
D. 與OvR相同

答案：B

解析：在C個類別時，OvO需 C(C-1)/2 個二分類器，最終以投票決定。

64. 出題頻率/重要性：★★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第115頁）

「增強式學習 (Reinforcement Learning)」在AlphaGo那樣的棋類應用中做法為何？

A. 圍棋動作對應獎勵/懲罰，透過自我對弈不斷試錯學到最優策略
B. 只靠監督式標籤
C. 用分群演算法
D. 無法達到超人水準

答案：A

解析：AlphaGo結合深度學習與增強式學習，在對弈過程中不斷調整策略以最大化勝率。

65. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第250頁）

在生成式模型中，「VAE (Variational AutoEncoder)」與GAN的差別？

A. VAE以概率圖模型方式學習隱變量分布；GAN透過生成器與判別器對抗
B. 兩者原理相同
C. VAE不生成資料
D. GAN不包含生成器

答案：A

解析：VAE透過最大化邊界似然(ELBO)學隱變量分布；GAN以對抗方式學到映射，兩者皆能生成資料，但方法不同。

66. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

若在預測股市漲跌時，打算用「SVM + RBF核」處理。RBF核的參數 gamma 代表？

A. 控制高斯函式影響範圍，值越大越關注局部
B. 學習率
C. 不影響結果
D. 只在回歸模式有用

答案：A

解析：RBF 核 K(x,x')=exp(-gamma||x-x'||^2)，gamma越大，距離影響急劇衰減，更局部化。

67. 出題頻率/重要性：★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第260頁）

做序列標注（如詞性標注、命名實體識別）時，哪種模型常被使用？

A. K-Means
B. CRF (Conditional Random Field) 或 Bi-LSTM-CRF 等序列模型
C. CNN圖像
D. 隨機森林

答案：B

解析：CRF能同時考慮上下文標籤依存；Bi-LSTM-CRF則結合RNN與CRF處理序列標記。

68. 出題頻率/重要性：★★★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第120頁）

自然語言處理近年崛起的「Transformer」架構依賴什麼關鍵機制？

A. Self-Attention(自注意力)機制，可同時關注序列不同位置
B. RNN階層
C. CNN卷積層
D. 僅線性層

答案：A

解析：Transformer不使用RNN/CNN，而以多頭注意力並行處理上下文，成為NLP主流。

69. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

「半監督式學習」與「遷移學習 (Transfer Learning)」差別為何？

A. 半監督：少量標籤+大量無標籤同分佈資料；遷移：從不同但相關領域的已訓練模型遷移
B. 兩者相同
C. 遷移學習需完全相同資料
D. 半監督要求不同領域

答案：A

解析：半監督是在同一領域內使用無標籤資料；遷移是從其他領域或任務的模型/權重來適應新任務。

70. 出題頻率/重要性：★★

由大綱出題：Yes（初級大綱.txt - L11302 常見的機器學習模型）

「餘弦相似度 (Cosine Similarity)」經常應用於？

A. 數值回歸
B. 文字向量或高維稀疏向量的相似度量
C. 只用於決策樹
D. CNN卷積核

答案：B

解析：在文本向量或高維嵌入中，常用cosine量度角度差異，避免量級差影響。

71. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

L1正則 (Lasso) 有助於特徵選擇，原因是？

A. L1會推動部分權重降至0，達到稀疏化效果
B. 與特徵無關
C. 使權重變很大
D. 只能用在樹模型

答案：A

解析：L1懲罰|w|之和，小權重更易被壓到0，等於自動刪除不重要特徵。

72. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第280頁）

「Stacking (堆疊集成)」的一般流程是？

A. 訓練多個初級模型，將其預測結果作為次級模型的輸入特徵，再輸出最終預測
B. 與Bagging相同
C. 用於回歸時無法集成
D. 只需要單一模型

答案：A

解析：Stacking先訓練N個模型，將它們對驗證集的輸出形成新的特徵，再訓練一個meta模型去做最終預測。

73. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

在二元分類中，若正類樣本極少，可能需要關注哪種指標？

A. Accuracy即可
B. Precision, Recall, F1 等不平衡度量
C. ARIMA
D. 無需關注

答案：B

解析：不平衡問題下Accuracy不可靠，建議觀察Precision, Recall, F1, AUC等指標。

74. 出題頻率/重要性：★★

由大綱出題：Yes（初級大綱.txt - L11302 常見的機器學習模型）

若某模型對有些特徵相當敏感，表示什麼？

A. 代表該特徵不重要
B. 可能該特徵對結果有重大影響，或模型依賴此特徵較高
C. 與模型無關
D. 需刪除該特徵

答案：B

解析：敏感表示該特徵一變動就改變預測，顯示它對決策非常關鍵，但也要留意過擬合風險。

75. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第290頁）

深度強化學習 (Deep Reinforcement Learning) 結合了哪兩種思路？

A. 深度神經網路自動特徵 + 強化式學習環境獎懲
B. KNN與Bagging
C. GBDT與PCA
D. 僅用RNN

答案：A

解析：如DQN等方法，用神經網路替代Q表來近似策略或價值函式，並在環境中透過獎懲學習。

76. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

在PCA中，若我們選前k個主成分，能保留多少資訊？

A. 看對應特徵值(variance)累積比例，可決定多少方差被保留
B. 一律100%
C. 不知道
D. PCA不處理資訊保留

答案：A

解析：PCA根據特徵值大小排序主成分，每個主成分對應一部分總方差，前k個累加即保留多少資訊。

77. 出題頻率/重要性：★★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第125頁）

在文本分析中，常將字詞轉為 embedding，如Word2Vec, GloVe, BERT embedding，其好處？

A. 可將語意相近詞映射到向量空間中距離更近，更具語意資訊
B. 僅回傳字串
C. 跟傳統One-hot無差
D. embedding無語意

答案：A

解析：embedding能學習詞與詞之語意相似度；傳統One-hot則無法表達詞語之間的關聯。

"

78. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第300頁）

哪種技術能量化特徵對預測結果的重要度，並不局限於樹模型？

A. SHAP (SHapley Additive exPlanations)
B. 只用Gini index
C. PCA
D. 沒法解釋

答案：A

解析：SHAP基於賽局理論，能對任意模型(樹、深度網路、線性等)衡量各特徵對個體預測的貢獻度。

79. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

做深度CNN時，增加多少層就越好嗎？

A. 需要平衡參數量與訓練資料，過深可能梯度問題或過擬合
B. 絕對層數越多越準
C. 完全不影響
D. CNN通常只有一層

答案：A

解析：深層CNN確有更強表現力，但也面臨梯度消失或資料不足導致過擬合等問題，需要架構(如ResNet)或正則化助力。

80. 出題頻率/重要性：★★

由大綱出題：Yes（初級大綱.txt - L11302 常見的機器學習模型）

「Mini-Batch Gradient Descent」在大型資料中很常用，原因是？

A. 平衡了批量GD的穩定性和SGD的速度，可以分批處理以減少記憶體負擔
B. 數值更不穩定
C. 只能小數據使用
D. 不適用GPU

答案：A

解析：大型資料無法一次載入記憶體，mini-batch能並行計算梯度，兼顧效率與穩定。

81. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

「對比學習 (Contrastive Learning)」在自監督學習中做什麼？

A. 將相似樣本拉近，不相似樣本推遠，學到更好的表徵
B. 做監督式標籤
C. 與自監督無關
D. 僅用在樹模型

答案：A

解析：對比學習(contrastive)廣泛用於圖像、語言表徵學習，如SimCLR等，無需人工標籤也能學到有意義的向量表示。

"

82. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第310頁）

下列何者最能代表「貝氏網路 (Bayesian Network)」的特徵？

A. 以有向圖表示隨機變量間的條件獨立性，可對機率推理與不確定性建模
B. 與條件機率無關
C. 僅能做監督式學習
D. 只用於強化式

答案：A

解析：貝氏網路將變量與邊表徵條件依賴關係，可用於推斷/預測/診斷等機率圖模型應用。

83. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

「對抗範例 (Adversarial Example)」對深度模型是什麼含意？

A. 人類看似無差的輸入，通過微小擾動便可導致模型誤判
B. 增強模型穩定
C. 與深度學習無關
D. 測試集保留

答案：A

解析：對抗範例利用深度模型對特徵分布敏感性，使輸入加少量雜訊就能欺騙模型。

"

84. 出題頻率/重要性：★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第320頁）

做推薦系統常見的協同過濾 (Collaborative Filtering) 有哪兩種？

A. 基於記憶(Memory-based)與基於模型(Model-based)，前者例：UserKNN；後者例：矩陣分解
B. 只有User-based
C. 僅回歸
D. 與推薦無關

答案：A

解析：協同過濾分Memory-based(如UserCF/ItemCF)和Model-based(如SVD矩陣分解，NN等)。

85. 出題頻率/重要性：★★★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第130頁）

「對比學習 (Contrastive Learning)」與「GAN (Generative Adversarial Network)」最大不同點是？

A. 對比學習主要在embedding空間分辨相似/不相似樣本；GAN在生成器與判別器對抗產生新資料
B. 兩者均用判別器
C. 都是監督式分類
D. 相同原理

答案：A

解析：對比學習在學習表徵(embedding)；GAN在學習生成分佈。兩者皆稱「對抗」，但機制用途不同。

86. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

決策樹若樣本含大量類別特徵時，如何最佳處理？

A. 無需任何轉換
B. 大多樹實作需將類別特徵做One-Hot或Target Encoding，而像CatBoost有內建處理
C. 不能處理類別
D. 樹並不受類別特徵影響

答案：B

解析：常見樹實作(CART,RF,XGBoost等)對類別特徵無內建支援，需轉換；CatBoost可直接處理類別特徵。

87. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第340頁）

「樸素貝氏 (Naive Bayes)」為何稱作"樸素(naive)"?

A. 計算複雜
B. 假設特徵在給定類別後彼此條件獨立，這在現實中往往太過簡化
C. 一定最精確
D. 與條件獨立無關

答案：B

解析：此「樸素」指簡化假設特徵之間不相關，但實務仍能取得不錯效果。

88. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

做異常檢測 (Anomaly Detection) 常可用？

A. 監督式標記
B. One-Class SVM, Isolation Forest, 或自編碼器(重建誤差)等
C. 只能K-Means
D. 回歸

答案：B

解析：異常檢測常採用無(或少)標籤的方式，如One-Class SVM, IsolationForest(樹法), 自編碼器(看重建差)。

89. 出題頻率/重要性：★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第360頁）

面對高維稀疏特徵（如廣告點擊預測），哪種模型常見？

A. LR、FM (Factorization Machines)、FFM等，能處理大量稀疏編碼
B. RNN
C. DBSCAN
D. CNN

答案：A

解析：廣告CTR預測常用LR或FM等表格模型處理大量one-hot稀疏特徵；FM可以學到特徵交互。

90. 出題頻率/重要性：★★★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第140頁）

深度Q網路 (DQN) 是結合了何者？

A. Q-learning (強化學習) + 深度神經網路，用網路近似Q函式
B. 監督式回歸
C. CNN做分群
D. Lasso回歸

答案：A

解析：DQN在 Atari等遊戲中大放異彩，透過CNN將畫面映射成狀態，再以Q-learning策略學習。

"

91. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

集成學習中，「多樣性 (diversity)」為何重要？

A. 若各模型錯誤模式不同，最終投票或加權效果更佳
B. 只用同樣模型和資料
C. 與集成無關
D. 不可改變

答案：A

解析：若所有模型彼此相似就無法互補，故需要模型或訓練資料具多樣性來提高最終結果。

92. 出題頻率/重要性：★★★

由大綱出題：Yes（初級大綱.txt - L11302 常見的機器學習模型）

做「時間序列預測 (Time Series Forecasting)」時，若使用樹模型 (如XGBoost) 該注意？

A. 需將時序資訊特徵化(如滯後值、移動平均等) 並避免未來資訊洩漏
B. 和普通回歸一樣
C. 可以隨機打亂樣本
D. 不用資料預處理

答案：A

解析：樹模型本身並不理解時間，需人工構建時序特徵(如前n步值...)且要確保訓練不包含未來。

93. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

「貝氏決策理論 (Bayesian Decision Theory)」在分類時強調？

A. 最小化後驗錯誤或期望損失，考量各類別先驗與條件機率
B. 只用線性方程
C. 與先驗無關
D. 僅可做回歸

答案：A

解析：貝氏決策透過p(y|x)的分佈比較做最小風險決策，也可依成本矩陣挑選最優類別。

94. 出題頻率/重要性：★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第370頁）

若你在深度模型上看「測試損失」不斷升高，但「訓練損失」持續降低，代表什麼？

A. 過擬合：模型只在訓練資料越來越好，在測試資料卻越來越差
B. 欠擬合：訓練也差
C. 和深度學習無關
D. 代表模型完美

答案：A

解析：很典型的過擬合徵兆，應採用正則化或Early Stopping等策略。

95. 出題頻率/重要性：★★★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第135頁）

「BERT」模型在NLP領域的核心創新是？

A. 雙向Transformer編碼器 + Masked Language Model，能同時看上下文
B. 單向LSTM
C. 僅CNN
D. 不用Attention

答案：A

解析：BERT以Transformer雙向注意力結構，透過MLM與NSP預訓練學習語言表徵，再下游微調。

96. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

在KNN中，若要對鄰居做加權通常依據？

A. 與測試樣本的距離，越近權重越大
B. 權重全相同
C. 隨機分配
D. 與KNN無關

答案：A

解析：在加權KNN中，距離越近表示相似度越高，給予更大的權重。

97. 出題頻率/重要性：★★

由大綱出題：Yes（初級大綱.txt - L11302 常見的機器學習模型）

「線性判別分析 (LDA)」的核心思路是？

A. 在可分離投影空間上最大化類別間距離，最小化類別內距離
B. 僅做分群
C. 僅做迴歸
D. 不考慮類別內距離

答案：A

解析：LDA要找一條投影方向，使不同類分離度最大，同類緊密度最小，可用於降維或分類。

98. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第380頁）

在機器學習比賽或實務中，為何常最後用「集成 (Ensemble)」方法？

A. 能綜合不同模型的優勢，通常可提升預測分數或穩定度
B. 單模型必然最好
C. 集成必然過擬合
D. 只適用文字分類

答案：A

解析：競賽中常見Blending/Stacking方法，實務可提高穩定性與效能，但成本較高。

99. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

「GMM (Gaussian Mixture Model)」在分群中是？

A. 用多個高斯分佈混合擬合資料分布，常用EM演算法估參數
B. 僅用樹結構
C. K-Means的變形，無高斯概念
D. 與機率無關

答案：A

解析：GMM假設樣本來源於不同高斯分佈，透過EM算法估各成分的均值、協方差、混合權重來做分群。

100. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第400頁）

綜觀「L11302 常見的機器學習模型」整體要點，下列哪句最能總結？

A. 各模型(線性、樹、貝氏、SVM、深度網路...等)在不同資料型態有其優勢，應靈活應用並考慮泛化、可解釋性等
B. 只要CNN
C. K-Means適合全部任務
D. SVM絕對優於所有方法

答案：A

解析：沒有萬能模型，需依據資料規模/性質及應用情境，選擇或集成不同模型來達成最佳效能。

檔案7：L11302 常見的機器學習模型（100題）

共100題（難度比照初級樣題）